技术与标准丨人脸表情识别技术研究综述

Original 刘建华，唐雷信息通信技术与政策 2023-10-16

收录于合集

#信息通信技术与政策 612 个

#人工智能 17 个

作者简介

刘建华

中国艺术科技研究所工程师，主要从事文化标准化、文化科技融合等方面的研究工作。

唐雷

通信作者。中国信息通信研究院科技发展部工程师，主要从事人工智能、车联网等技术领域的研究工作。

论文引用格式：

刘建华, 唐雷. 人脸表情识别技术研究综述[J]. 信息通信技术与政策, 2022,48(8):89-96.

人脸表情识别技术研究综述

刘建华¹ 唐雷²

（1. 中国艺术科技研究所，北京 100012；2. 中国信息通信研究院科技发展部，北京 100191）

摘要：人脸表情识别技术是一个广泛的研究方向，涉及机器学习、图像处理、心理学等诸多领域，应用前景也相当广阔。近年来，随着人工智能等领域的发展和进步，属于情感计算领域的人脸表情识别技术也逐渐成为一个热门的研究方向。人脸表情识别任务一般由获取人脸图像、图像预处理、特征提取、特征分类4 部分组成，人脸表情图像一般直接采用相关的数据集获取。首先介绍了人脸表情识别任务中需要进行的图像预处理步骤，以及特征提取和特征分类中的传统研究方法和深度学习方法，最后对人脸表情识别相关的数据集、发展趋势与挑战等进行阐述，并提出对未来的相关研究方法的看法。

关键词：人工智能；人脸表情识别；特征提取；特征分类

中图分类号：TP391.41 文献标志码：A

引用格式：刘建华, 唐雷. 人脸表情识别技术研究综述[J]. 信息通信技术与政策, 2022,48(8):89-96.

DOI：10.12267/j.issn.2096-5931.2022.08.013

0 引言

作为交流的一个重要媒介，在日常生活中，表情的使用往往能起到增强交流的效果。人脸表情是人们表达自身各种情绪和信息的一个重要手段，心理学家A.Mehrabia曾经深入地研究过，一个人在一天中，通过语言传递的信息只占传递的总信息的7%，然而通过面部表情传递的信息占比却高达55%^[1]。因此，关于人脸面部表情的识别有极高的科研价值，对人脸面部表情的研究可获得大量有价值的信息。

早在1971年，美国的两位心理学家：Ekman和Friesen就已经对面部表情做过系统的研究，并建立了包含上千幅图像的资料库。1978年，在更深入地研究了人类表情与情感的内在联系后，他们自主开发了FACS^[2-3]（面部表情编码系统），该系统通过对人脸的解剖学研究和生理特征将人脸划分为46 个独立的位置和运动单元（AU），并详细地分析了这些位置和其运动单元的主要控制区域以及与之对应的表情和生理特征。

人脸表情识别系统如图1所示，主要由人脸图像的获取、面部图像预处理、特征提取、特征分类组成。下面将从使用传统方法和深度学习方法来研究面部表情识别两个角度对以上各个步骤进行阐述。

图1 人脸表情识别系统

1 人脸表情图像预处理
在自然场景中。光照影响、头部朝向以及非头部区域的差异等是常见的与面部表情识别无关的影响因素。所以在对图像进行分析前，就需先做预处理来排除以上干扰。其常用方法是：人脸检测、人脸对齐和人脸归一化。
1.1 人脸检测要想进行人脸识别，首先的目标是对图像进行人脸检测，以此确定图像中所有人脸的所在位置，去除非面部区域。以往进行的人脸检测是通过哈尔特征等特征对分类器进行训练的，但无法应对剧烈的环境变化情况。一种计算过程简单的方法是使用Viola-Jones（V&J）人脸检测器，但对非正面人脸视图时鲁棒性低。深度学习阶段，Faster-RCNN以及速度更快的YOLO等方法被提出，用来解决环境变化和人脸不完整等问题。目前来说，级联结构的卷积神经网络因其高速性和准确性已经成为最流行先进的人脸对齐方法。
1.2 人脸对齐为了进一步提高面部表情识别的精度，需要在人脸检测后进行人脸对齐的操作。人脸对齐可以表示为在一张人脸图像中搜索人脸预先定义的点的问题，它通常从粗糙的初始形状开始，并通过逐步细化形状估计直到收敛。
监督下降法（Supervised Descent Method，SDM^[4]）是常用的人脸对齐方法，另外还有如混合树结构模型（Mixture of Trees，MOT^[5]）、判别响应图拟合（Discriminative Response Map Fitting，DRMF^[6]）、DlibC+ + 库^[7]、多任务级联卷积神经网络（Multi-taskCascaded Convolutional Network，MTCNN^[8]）、 DenseReg^[9]和小人脸检测^[10]等方法。
1.3 人脸归一化对于用户面部人体表情特征识别技术任务来说，光照的不同方向和头部面朝方向的差异会对识别面部特征的性能表现有很大的影响，一般通过对图像进行归一化来解决此类问题。如基于各向同性扩散的归一化、基于离散余弦变换的归一化、高斯差分和基于同态滤波的归一化^[11-12]。此外，有资料显示，在光照归一化的基础上进行直方图均衡化的性能优于单独使用前者。为了增强图像的全局对比度，DEEP FER文献[13-15]中的许多论文都引入了直方图均衡化。然而，在用直方图均衡化的方法对图像进行处理前后会对图像的局部对比度产生较大改变。为了彻底解决这一问题，文献[16]提出了一种将直方图均衡化和线性映射相结合并进行加权求和的方法。为了便于特征提取，还需要将人脸图像均转化为正面视图，这个过程被称为姿态归一化。最近FF-GAN^[17]、TP-GAN^[18]、 DRGAN^[19]等深度模型被提出用于姿态归一化。
2 特征提取
特征提取的目的是减少图像数据集中信息的数量，用来反映图像的特征，在拥有一定鲁棒性和保证识别率的基础上，对大量的数据进行降维处理。
2.1 传统研究方法目前面部表情识别中的研究主要是针对二维的静态图像研究、视频序列等三维的动态图像研究2个方向，前者表征的是表情发生时单幅图像的表情状态，后者表征的则是表情的动态强度变化。
使用传统研究的方法在进行人脸信息特征提取时，针对静态的人脸信息,如果从整体来看，提取目的就是为了尽可能地降低对原始人脸信息的损害和破坏，用分类器对整个人脸信息进行处理后来获得特征值，主元分析法、独立分量分析法以及线性判别分析法等都是其中一些经典的算法，文献[20-21]是上述方法的改进在FER 中的应用。
从表情识别局部上看，算法可以通过分析局部肌肉和皮肤褶皱的细微变化来进行表情识别，其中Gabor小波法和LBP算子法是两种经典的表情识别方法，文献[22]以Gabor小波等多种特征提取算法为手段，分类过程被分解为多个两类分类问题，一个选择是分析证明，并为每个分类问题提取唯一的特征集。文献[23]使用Gabor小波来模仿人类视觉皮层的地形图结构以实现面部表情识别。
对动态表情的处理分为光流法、模型法和几何法等。光流法是利用图像中像素随时间的变化，来反映不同帧之间人脸单元灰度的改变，以此确定表情状态的方法；模型法是先通过训练建立形状模型，再结合模型与人脸图片匹配的方法，主要包括活动形状模型（Active Shape Models，ASM）和主动外观模型（Active Appearance Model，AAM）；几何法通过标识人脸器官的特征点，计算各个特征点之间的距离与曲线曲率来进行特征识别。文献[24]开发了一种基于光流的特征点跟踪方法，可以识别人类的微表情的变化；文献[25]在计算人脸的多渠道灰度模型时采用了光流法；文献[26]提出了基于ASM的人脸特征识别方法，实现了对局部动作单元的跟踪和识别。
2.2 特征提取的深度框架传统的FER系统需要使用手动提取的特征，或是浅层学习,识别功能有限。随着人类情绪认知识别技术在国际情感识别大赛中的应用与提高，基于机器学习的脸部表情认知识别技术也越来越火热。以下是近年来应用较好且功能比较强大的基于深度学习技术的FER框架。
2.2.1 深度信念网络深度置信网络（Deep Belief Network，DBN）这一概念在2006年由Hinton等^[27]提出，DBN是神经网络特殊中的一种。一般由多层串联的受限玻尔兹曼机（Restricted Boltamann Machine，RBM）和反向传播层（Back Propagation，BP）神经网络构成。
在DBN的基础上，增强深度置信网络（Boosted Deep Belief Network，BDBN）于2014年被Ping Liu等人提出。特征被联合微调，并被选择在一个全新的增强的自上向下的监督特征强化（BTD-SFS）的过程中形成一个强分类器，通过这个框架，可以从面部图像中学习到高度复杂的特征。文献[29]提出了一个由3 个顺序模块组成的受AU启发的深层网络（AU-inspired Deep Networks，AUDN），并在CK+、MMI和SFEW三个数据库上的实验中取得了最佳效果。
2.2.2 自动编码器方法1986 年，Rumelhart 提出自动编码器这一概念，自动编码器可以提取数据的隐含特征并学习用这些特征重构数据。早期的自动编码器应用于数据压缩和数据处理方面，但压缩效果很大程度上取决于压缩数据自身，并且会出现数据损失的情况。
文献[31]介绍了用深度自动编码器（Deep Auto Encoder，DAE）将高维数据转化为低维数据，DAE的思想是在预训练中逐层训练整个模型，与自动编码器相比，DAE被优化使重构误差尽可能低来重构其输入。文献[31]提出了一种利用深度稀疏自动编码器（DSAE）进行面部表情识别的新方法，将几何特征和外观特征相结合起来判断，能自动高精度地识别表情。文献[32]提出了改进的局部三元模式（LTP）和堆叠自动编码器（SAE）相结合的方法用于面部表情识别，改进的LTP模型对纹理特征进行提取，最后利用SAE对特征进行提取和分类。
2.2.3 深度卷积神经网络卷积神经网络（Convolutional Neural Networks，CNN）一般由3 个处理层组成：卷积层、池化层和全链接层。卷积层针对的是图像的特征提取；池化层用来对特征图像进行稀疏处理，减少数据运算量（降维）；在全链接层中，每一层的神经元均与后续层中的全部神经元建立连接，神经元是否触发由与之相连的神经元的输入权重之和决定。CNN相较于其他神经网络的不同是局部连接和权重共享，这让CNN网络中的参数风少，效率更高，正则化效果更好等。以CNN为架构的经典网络有AlexNet、GoogLeNet、VGGNet等。
除了这些网络之外，还存在许多在此基础上的派生框架。在文献[33-34]中，基于区域的CNN[35]用于学习FER的特征。文献[36]提出一种基于感兴趣区域（Region of Interest，ROI）的面部表情识别方法。文献[37]结合感兴趣区域和K最近邻（K-nearest Neighbor，KNN）算法提出ROI-KNN训练改进方法，改善了由于面部表情训练数据过少而导致深度神经网络模型泛化能力不佳的问题，从而提高了鲁棒性。
2.2.4 生成对抗网络2014年，Ian Goodfellow提出了采用非监督式架构的生成对抗网络（Generative Adversarial Networks，GAN）。生成对抗网络由生成器网络（Generator）和判别器网络（Discriminator）组成，通过让二者相互博弈得到更好的输出结果。
文献[19]提出解缠表示学习的生产对抗网络（DR-GAN），通过编解码器结构发生器，可以正面化或旋转一个具有任意姿态甚至是极端轮廓的脸，对于野外低鲁棒性的面部表情识别研究有着深远的意义；文献[38]利用GAN来对小样本的目标数据集生成伪标签样本；Zhang 等^[39]提出了一种基于GAN的模型，该模型可以在任意姿态下生成具有不同表情的图像用作多视角FER。
3 特征分类
特征分类是为了通过特征来判断人脸图片所属的表情类别。在传统的表情识别步骤中，特征提取和特征分类是两个无关联的独立步骤。然而在深度神经网络中特征提取和特征识别均在神经网络中完成。此外，也可以使用深度学习网络来提取特征，然后用其他分类器根据表情的类别来分类。本节列出了一些传统方法和深度学习方法中都常用到的分类方法。
3.1 基于贝叶斯网络的分类方法贝叶斯网络（BayesianNetwork）一般是指节点之间通过贝叶斯公式具有一定关系的有向无环的图形化网络，是推理领域内最有效的模型之一。在表情识别领域中，概率推理可以应用在从一个已知表情的信息中进行推断得到一个未知表情所属类的概率。通过贝叶斯网络的分类方法主要有各种贝叶斯网络分类算法及隐马尔科夫模型。
文献[40-41]就是采用贝叶斯网络对表情进行分类的方法。HMM算法通过计算观察值的后验概率，实现对表情属性的判断。同时由于引入了时间变量，HMM算法可以看成一种动态贝叶斯网络。文献[42]采用HMM算法识别动作单元，实现了于刚性和非刚性运动分离以及三维位置估计的人脸表情识别系统。
3.2 基于距离度量的分类方法基于距离的分类器通过计算样本之间的距离来实现表情分类。代表性算法有最近邻法和支持向量机（Support Vector Machines，SVM）算法。最近邻法从一类训练样本中，选取与测试样本距离最近的样本，作为该类的原型；SVM 算法的目的是通过优化目标函数，来确定一个超平面，使得离超平面最近的点的距离最远。
在文献[43-44]中，二者均在基于SVM的基础上提出了新的表情分类机制。前者将K近邻分类器与SVM结合提出了Local SVM（LSVM）算法；后者提出的混淆交叉支持向量机树（CSVMT）模型将SVM和树型结构结合起来，相较于SVM有更好的泛化性和鲁棒性。
4 相关数据集
4.1 The Japanese Female Facial Expression Database（JAFFE）JAFFE数据集在1998年创建，其中有213 张人脸照片，包括愤怒、憎恶、恐惧、高兴、悲戚、惊诧、中性7 种不同的表情。
4.2 The Extended Cohn-Kanade Dataset（CK+）CK+发布于 2010 年，包含 593 个图像序列，是当前人脸表情特征识别技术领域中相对受欢迎的数据库。
4.3 Acted Facial Expression in the Wild（AFEW）AFEW数据集中的表情图像或视频均来自于电影剪辑片段其中表情分为6 类基本表情外加中性表情。从2013年开始AFEW为EmotiW比赛所用的数据集。
4.4 FER2013FER2013数据集内总共有35 886 张人脸照片，其中包含28 709 个训练用图像、3 589 个用于公共验证的图像和3 589 个用来私有验证的图像。数据集中每张图像同样按照6 种基本表情加上中性表情分类。
4.5 MMIMMI数据集包含了超过2 900 个视频和75 个主题的高清图片，源自实验室控制条件下的32 位受试者。此数据集存在主题差异，许多受试者佩戴眼镜或是留有胡须。
5 结束语
数据集方面，随着FER越来越多采用深度学习方法来进行研究，可靠高质的数据集就显得尤为重要。目前，FER任务中使用到的标准人脸面部表情数据集大多是来自以下两种方式：受控实验室中采集记录或者电影等视频中截取（如Affectiva-MIT和AFEW），两者都是一种受刺激下的非自发带表演性质的表情数据，与自然场景下的人脸面部表情仍相差甚远，同时在实验室处理环境下，采集到的人脸表情一般是头部姿势正面、光照合适且无遮挡的高质图像，识别的难度和复杂度相对降低，而这在真实的外部环境中难以满足，如果要在现实环境下识别面部表情，可能还需要在构建真实面部表情数据集等相关方面进一步努力。
同时，数据集偏差也是一个需要考虑的问题。如上述提到的两个数据集，目前研究人员大多在几个广泛使用的数据集上验证自己的算法，这会产生一种风险，即研究的主要目的转为最大限度地提高算法在特定数据集的性能，而这些数据集很可能存在偏差。虽然利用特定的偏差可以提高算法在特定数据集上的性能，但如果用来解决一般性问题，却往往会失败，这也是为什么会出现一个经数据集训练后的模型在另一个数据集下测试的结果却并不理想的原因，即模型的跨数据集性能较差。
表情分类方面的工作也有继续研究的空间。目前，表情识别领域内很多论文中表情分类的标准都源自于1971年提出的6 种基本表情。但在现实中，人类可以使用的表情远不止6 种，仅这6 种表情相互组合所衍生出的表情也是极为复杂的。已经证明，人类在日常生活中表现出多达7 000 个面部动作单元组合^[45]，由于动作单元的定义方式，这意味着这些组合中的每一个都会产生明显不同的视觉输入,尽管其中许多组合可能会被归类为 6 种基本表情中相同的那一类。此外，一些没有采用Ekman经典表情分类的研究，如文献[46-47]等，研究人员认为一些面部表情是多种基本情绪结合的结果。
因此，一种思路是在Ekman经典表情分类基础上增加新的表情分类，但随着所考虑的类数的增加，这可能会导致表情识别任务变得低效，另一种思路则是对面部动作单元（AU）进行研究，由于AU是编码面部表情的低维单元，所以相同的AU模型可以应用于任何其他表情的分析，但是使用该方法同样存在两个问题：一是人工注释AU标签的成本远远高于以分类方式标记面部表情；二是要检测的信号通常更微妙，从而放大了滋扰因素带来的挑战。真实野外环境中，面部被遮挡、头部姿势非正面、光照影响等都是常遇到的状况，以面部遮盖举例，解决这个问题的难点在于不同图像中的遮蔽物往往在图像的不同位置并且大小、形状不同。数据集中如果存在着这样的问题数据，不仅使得模型难以拟合，还严重拉低了最后的精度，因此，如何对上述情况进行精准有效的面部表情识别是一直困扰研究者们的课题。
目前，已经有相关的研究在展开，文献[48]中在CNN的基础上改进出基于注意力机制的卷积神经网络（Convolution Neutral Network with Attention Mechanism，ACNN），该 ACNN模型可以感知出人脸的遮挡区域，并且可聚焦于最具辨识力的未遮挡区域，可以有效解决面部遮挡这一问题；文献[39]则提出了一种通过生成对抗性网络进行多任务学习的多视角面部表情识别方法，利用GAN中生成器和鉴别器之间的对抗性关系，生成器可以在保持表情特征不变的前提下，将以侧脸输入的表情转化为正脸表情。
目前有一个有趣的趋势是，能够在计算能力较低的设备，特别是移动电话上运行的算法，将会有越来越大的影响力，这涉及到计算效率的问题。一个显著例子是IntraFace软件，它允许在移动平台上进行人脸分析。利用通用移动平台提供的计算资源进行人脸表情分析既是一个挑战，也具有深远的实际意义。
结合多模态来研究FER将是未来的发展方向。无论是利用多模态方法来更好地识别人脸表情，还是将面部表情信息作为机器理解人类行为的一部分，都有着很强的实际意义。一个理想的人机交互系统需要将音频分析（包括情感分析、说话者身份识别等）、其他不同形式的视觉分析（身体姿态估计、动作识别、头部姿态等）、脑电分析，甚至包括用于自然语言处理的工具等整合到一起，在这种情况下，将面部表情识别视为一个孤立的问题的处理结果并不令人满意。
对人脸的微表情进行研究，也有着很强的应用价值。微表情可能携带着更具真实的情感信息，能够反映个体的内心真实想法，在测谎、抑郁症诊断、广告效果评估等领域都有着一定的实用价值。此外，不同的人类个体往往具有不同的肤色、外貌、性别、年龄、宗教文化等差异，这些差异都可能会对其做出表情的方式产生影响。因此，理想的表情数据库中的标签应包含以上各种特征而不是单单的表情种类，这将有助于更广泛的相关研究。
参考文献
[1] MEHRABIAN A, RUSSELL J A. An Approach to Environmental Psychology[M]. Cambridge:MITPress, 1974.[2] EKMAN R. What the face reveals: basic and applied studies of spontaneous expression using the Facial Action Coding System (FACS)[M]. Oxford University Press, USA, 1997.[3] EKMAN P, FRIESEN W V. Facial action coding system[J]. Environmental Psychology & Nonverbal Behavior, 1978.[4] XIONG X, DE LA TORRE F. Supervised descent method and its applications to face alignment[C]//Proceedings of the IEEE conference on computer vision and pattern recognition, 2013:532-539.[5] ZHU X, RAMANAN D. Face detection, pose estimation, and landmark localization in the wild[C]//2012 IEEE conference on computer vision and pattern recognition. IEEE, 2012:2879-2886.[6] ASTHANA A, ZAFEIRIOU S, Cheng S, et al. Robust discriminative response map fitting with constrained local models[C]//Proceedings of the IEEE conference on computer vision and pattern recognition, 2013:3444-3451.[7] KING DE. Dlib-ml: A machine learning toolkit[J]. The Journal of Machine Learning Research, 2009, 10:1755-1758.[8] ZHANG K, ZHANG Z, LI Z, et al. Joint face detection and alignment using multitask cascaded convolutional networks[J] . IEEE Signal Processing Letters, 2016,23(10):1499-1503.[9] ALP GULER R, TRIGEORGIS G, ANTONAKOS E, et al. Densereg: fully convolutional dense shape regression in-the-wild[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017:6799-6808.[10] HU P, RAMANAN D. Finding tiny faces[C]//Proceedings of the IEEE conference on computer vision and pattern recognition, 2017:951-959.[11] SHIN M, KIM M, KWON DS. Baseline CNN structure analysis for facial expression recognition[C]//2016 25th IEEE International Symposium on Robot and Human Interactive Communication(RO-MAN). IEEE, 2016:724-729.[12] LI J, LAM E Y. Facial expression recognition using deep neural networks[C]//2015 IEEE International Conference on Imaging Systems and Techniques (IST). IEEE, 2015:1-6.[13] EBRAHIMI KAHOU S, MICHALSKI V, KONDA K, et al. Recurrent neural networks for emotion recognition in video[C]//Proceedings of the 2015 ACM on International Conference on Multimodal Interaction, 2015:467-474.[14] BARGAL S A, BARSOUM E, FERRER CC, et al. Emotion recognition in the wild from videos using images[C]//Proceedings of the 18th ACM International Conference on Multimodal Interaction, 2016:433-436.[15] PITALOKA DA, WULANDARI A, BASARUDDIN T, et al. Enhancing CNN with preprocessing stage in automatic emotion recognition[J]. Procedia computer science, 2017,116:523-529.[16] KUO CM, LAI S H, SARKIS M. A compact deep learning model for robust facial expression recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2018: 2121-2129.[17] YIN X, YU X, SOHN K, et al. Towards large-pose face frontalization in the wild[C]//Proceedings of the IEEE international conference on computer vision, 2017:3990-3999.[18] HUANG R, ZHANG S, LI T, et al. Beyond face rotation: Global and local perception gan for photorealistic and identity preserving frontal view synthesis[C]//Proceedings of the IEEE International Conference on Computer Vision, 2017:2439-2448.[19] TRAN L, YIN X, LIU X. Disentangled representation learning gan for pose-invariant face recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition, 2017:1415-1424.[20] 周书仁, 梁昔明, 朱灿, 等. 基于ICA和HMM的表情识别[J]. 中国图象图形学报, 2008,13(12): 2321-2328.[21] 周书仁. 人脸表情识别算法分析与研究[D]. 长沙:中南大学, 2009.[22] KYPEROUNTAS M, TEFAS A, PITAS I. Salient feature and reliable classifier selection for facial expression classification[J]. Pattern Recognition, 2010,43(3):972-986.[23] GU W, XIANG C, VENKATESH Y V, et al. Facial expression recognition using radial encoding of local Gabor features and classifier synthesis[J]. Pattern Recognition, 2012,45(1):80-91.[24] COHN J F, ZLOCHOWER A J, LIEN JJ, et al. Featurepoint tracking by optical flow discriminates subtle differences in facial expression[C]//Proceedings Third IEEE International Conference on Automatic Face and Gesture Recognition. IEEE, 1998:396-401.[25] ANDERSON K, MCOWAN P W. A real-time automated system for the recognition of human facial expressions[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 2006,36(1):96-105.[26] TSALAKANIDOU F, MALASSIOTIS S. Real-time 2D +3D facial action and expression recognition[J]. Pattern Recognition, 2010,43(5):1763-1775.[27] HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets[J]. Neural computation, 2006,18(7):1527-1554.[28] LIU P, HAN S, MENG Z, et al. Facial expression recognition via a boosted deep belief network[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2014:1805-1812.[29] LIU M, LI S, SHAN S, et al. Au-inspired deep networks for facial expression feature learning[J]. Neurocomputing, 2015,159:126-136.[30] HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006,313(5786):504-507.[31] ZENG N, ZHANG H, SONG B, et al. Facial expression recognition via learning deep sparse autoencoders[J]. Neurocomputing, 2018,273:643-649.[32] WU Y, QIU W. Facial expression recognition based on improved local ternary pattern and stacked auto-encoder[C]//AIP Conference Proceedings. AIP Publishing LLC, 2017,1864(1):020131.[33] SUN B, LI L, ZHOU G, et al. Facial expression recognition in the wild based on multimodal texture features[J]. Journal of Electronic Imaging, 2016,25(6):061407.[34] SUN B, LI L, ZHOU G, et al. Combining multimodal features within a fusion network for emotion recognition in the wild[C]//Proceedings of the 2015 ACM on International Conference on Multimodal Interaction, 2015:497-502.[35] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition, 2014:580-587.[36] CUI R, LIU M, LIU M. Facial expression recognition based on ensemble of mulitple CNNs[C]//Chinese Conference on Biometric Recognition. Springer, Cham,2016:511-518.[37] 孙晓, 潘汀, 任福继 . 基于ROI-KNN卷积神经网络的面部表情识别[J]. 自动化学报, 2016,42(6):883-891.[38] WANG X, WANG X, NI Y. Unsupervised domain adaptation for facial expression recognition using generative adversarial networks[J]. Computational Intelligence and Neuroscience, 2018:1-10.[39] LAI Y H, LAI S H. Emotion-preserving representation learning via generative adversarial network for multi-view facial expression recognition[C]//2018 13th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2018). IEEE, 2018:263-270.[40] ZHANG F, ZHANG T, MAO Q, et al. Joint pose and expression modeling for facial expression recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition, 2018:3359-3368.[41] ZHANG Y, JI Q. Active and dynamic information fusion for facial expression understanding from image sequences[J]. IEEE Transactions on pattern analysis and machine intelligence, 2005, 27(5): 699-714.[42] WANG T H, LIEN J J J. Facial expression recognition system based on rigid and non-rigid motion separation and 3D pose estimation[J]. Pattern Recognition, 2009, 42(5): 962-977.[43] 徐文晖, 孙正兴. 面向视频序列表情分类的LSVM算法[J]. 计算机辅助设计与图形学学报, 2009,21(4):542-548.[44] 徐琴珍, 章品正, 裴文江, 等. 基于混淆交叉支撑向量机树的自动面部表情分类方法[J]. 中国图象图形学报, 2008, 13(7):1329-1334.[45] New handbook of methods in nonverbal behavior research[M]. Oxford University Press, 2008.[46] LUCEY P, COHN J F, MATTHEWS I, et al. Automatically detecting pain in video through facial action units[J]. IEEE Transactions on Systems, Man,and Cybernetics, Part B (Cybernetics), 2010,41(3):664-674.[47] DU S, TAO Y, MARTINEZ A M. Compound facial expressions of emotion[J]. Proceedings of the National Academy of Sciences, 2014,111(15):E1454-E1462.[48] LI Y, ZENG J, SHAN S, et al. Occlusion aware facial expression recognition using cnn with attention mechanism[J]. IEEE Transactions on Image Processing, 2018,28(5):2439-2450.[49] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition, 2016:770-778.
Overview of facial expression recognition technology
LIU Jianhua¹, TANG Lei²
(1. China Institute of Art Science and Technology, Beijing 100012, China; 2. Science and Technology Development Department, China Academy of Information and Communications Technology, Beijing 100191, China)
Abstract: Facial expression recognition is a research direction involving knowledge in many fields such as machine learning, image processing, psychology, etc., and its application scenarios are also quite broad. Recently, the study of facial expression recognition technology by emotion calculation has attracted attention. Facial expression recognition tasks generally consist of four parts: obtaining facial images, image preprocessing, feature extraction, and feature classification. Facial expression images are generally obtained directly from related data sets. Therefore, the step of image preprocessing is first introduced, followed by a sequential introduction of traditional research methods and deep learning methods in feature extraction and feature classification. Finally, a comprehensive elaboration of the data sets, development trends and challenges related to facial expression recognition is described.Keywords: artificial intelligence; facial expression recognition; feature extraction; feature classification

本文刊于《信息通信技术与政策》2022年第8期

主办：中国信息通信研究院

《信息通信技术与政策》是工业和信息化部主管、中国信息通信研究院主办的专业学术期刊。本刊定位于“信息通信技术前沿的风向标，信息社会政策探究的思想库”，聚焦信息通信领域技术趋势、公共政策、国家/产业/企业战略，发布前沿研究成果、焦点问题分析、热点政策解读等，推动5G、工业互联网、数字经济、人工智能、区块链、大数据、云计算等技术产业的创新与发展，引导国家技术战略选择与产业政策制定，搭建产、学、研、用的高端学术交流平台。

《信息通信技术与政策》官网开通啦！

为进一步提高期刊信息化建设水平，为广大学者提供更优质的服务，我刊于2020年11月18日起正式推出官方网站，现已进入网站试运行阶段。我们将以更专业的态度、更丰富的内容、更权威的报道，继续提供有前瞻性、指导性、实用性的优秀文稿，为建设网络强国和制造强国作出更大贡献！

《信息通信技术与政策》投稿指南！

你“在看”我吗？

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

技术与标准丨人脸表情识别技术研究综述

您可能也对以下帖子感兴趣

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

生成图片，分享到微信朋友圈

技术与标准丨人脸表情识别技术研究综述

您可能也对以下帖子感兴趣